本文在我们的O1复制旅程中介绍了一种先锋人工智能研究方法。回应宣布OpenAI开创性的O1模型,我们开始进行透明的实时探索,以复制其功能,同时重新构想进行和交流AI研究的过程。我们的方法论解决了现代AI研究中的关键挑战,包括延长基于团队的项目的孤立性,延迟的信息共享以及缺乏对各种贡献的认可。通过提供我们的复制工作的全面,实时的文档,包括成功和失败,我们旨在促进开放科学,加速集体进步,并为AI驱动的科学发现奠定基础。我们的研究进度报告与传统的研究论文有很大不同,在整个研究过程中提供了连续的更新,完整的过程透明度和积极的社区参与。从技术上讲,我们提出了“旅程学习”范式,该范式不仅鼓励模型学习快捷方式,还鼓励学习完整的探索过程,包括试验和错误,反思和回溯。只有327个培训样本,而没有任何其他技巧,旅程在数学数据集上学习的经验超过8%,表明其极其强大的潜力。我们认为这是我们成功解码的O1技术的最关键组成部分。我们共享宝贵的资源,包括技术假设和见解,认知探索图,定制开发的工具等,网址为https://github.com/gair-nlp/o1-journey。
主要关键词